出道即巅峰!详测月之暗面 AI ,1秒搞定20 万字贵州茅台年报,GPT4都看傻了
你好,我是清风徐来
这是《ChatGPT ,从入门到精通》 系列第 122 篇原创文章。
本公众号已开通 AI 学习 VIP 微信群!加入方式见这篇《普大喜奔!VIP 学习群已开通!入群方式+文章集锦》。
今天再给大家介绍一个国产 AI,月之暗面(Moonshot Al),
月之暗面AI 宣布在长文本领域实现了突破,并于 10 月 10 日开始公测,推出支持输入20 万汉字!!!的上下文大模型 moonshot,以及搭载该模型的智能助手产品 Kimi Chat。
刚看到这条新闻,我哑然失笑,
中国目前“百模大战”,软文满天飞,谁都敢说自己是第一。
20 万汉字的上下文,什么概念?2.5 倍于 Anthropic 公司的 Claude-100k(实测约 8 万字),8 倍于 OpenAI 公司的 GPT-4-32k(实测约 2.5 万字),唬谁呢?
但我还是半信半疑申请了测试,大概 1 周,申请通过。
测试了下,支持 20 万字居然是真的!
Moonshot Al 轻轻松松,几秒钟就吃下了我 上传的 茅台的 2022 年度报告!
并对内容进行了提取,分析也头头是道
这可是 126 页,12.5 万汉字的 PDF 大文件啊!小伙伴都惊呆了
我立马来了兴趣,查了查背景,4 月份刚工商注册!
创始人全是清华学子,还有卡梅隆计算机博士,谷歌、苹果工作背景,红杉领投,已经融资 20 亿元
名门之后,出道即巅峰!
这不是就是妥妥的月柱吗?
详细评测后,我认为它有第一国产 AI 的潜力!
#国产AI评测集锦:水柱文心一言,音柱通义千问,炎柱讯飞星火
一、背景介绍
名称:月之暗面(Moonshot Al)
定位:通用大模型
开发者:北京月之暗面科技有限公司,工商登记 2023 年 4 月 17 日
股权结构如下图(企查查):
联合创始人:杨植麟、周昕宇、吴育昕
据说,Moonshot Al 月之暗面的名字来自于首席创始人杨植麟最喜欢的一张专辑——Pink Floyd的《Dark Side of the Moon》
公司成立的日期正好是这张专辑发行的 50 周年。由于始终背对地球,月球的暗面始终处在地球人的视线之外,它象征着神秘与未知,而公司的愿景就是在人工智能领域探索这种未知。
我看好这个团队,因为顶级的科学家都是哲学家,爱听 pink Floyd 的都是哲学家
DON'T help them to bury the light,DON'T give in whthout a fight!
我眼前不禁浮现这样一个场景,深夜,一位戴着耳机,边听佛洛依德,边撸代码的少年程序员
团队:目前 50 人左右团队,半数以上的成员拥有海外经历,分别来自谷歌、Meta、亚马逊等全球科技巨头,整体团队包括了 NLP、CV、RL、Infra 等方面人才,做了很多有世界级影响力的工作
产品特点:大家可以去看 微信公众号“甲子光年”的文章,大概意思是算法独有特色,长文独步天下,同时没有牺牲对话质量。
杨在采访中提到的国内其他大模型,为了达到长文的几种缺陷:金鱼(健忘)、蜜蜂(忽略整体)、蝌蚪(发育不全)。比喻很有趣,我摘录如下:
“金鱼”模型,容易“健忘”。通过滑动窗口等方式主动抛弃上文,只保留对最新输入的注意力机制。模型无法对全文进行完整理解,无法处理跨文档的比较和长文本的综合理解。例如,无法从一篇10万字的用户访谈录音转写中提取最有价值的10个观点。
“蜜蜂”模型,只关注局部,忽略整体。通过对上下文的降采样或者RAG(检索增强的生成),只保留对部分输入的注意力机制。模型同样无法对全文进行完整理解。例如,无法从50个简历中对候选人的画像进行归纳和总结。
“蝌蚪”模型,模型能力尚未发育完整。通过减少参数量(例如减少到百亿参数)来提升上下文长度,这种方法会降低模型本身的能力,虽然能支持更长上下文,但是大量任务无法胜任。
据第三方报道:“月之暗面的 Kimi Chat 通过创新的网络结构和工程优化,在千亿参数下实现了无损的长程注意力机制,不依赖于滑动窗口、降采样、小模型等对性能损害较大的“捷径”方案。”
我不禁想起了美剧《硅谷》主人公的无敌算法!
在本文即将成文之际,看到这样一个比较图:
二、评测
1、官方网址
www.moonshot.cn
点击“阅读原文”,到“国产 AI”,可访问
2、申请测试
点击立即体验
提交申请后,大概 5、6 天通过
3、界面介绍
界面简洁,说明也言简意赅
左上是“历史会话“
下面是提示词建议
中间是提示语输入框,有三个按钮:联网提示图标、文件上传键
这几个按键大有乾坤!
有实时联网功能!
实时联网,号称最快的 GPT3.5 做不到!
号称最长上下文的 claude2 也做不到!
这个更牛,可以上传,一次 50 个,每个 100M 的 PDF、WORD、PPT、XLS、TXT
意思是一次可以上传 5 个 G 的文件?(实测,不管上传多少个文件,不能超过 20 万字的上下文长度)
大家知道,为什么 Claude2 现在还可以对抗 GPT 么?就是因为他支持长文的能力!
在公测中,支持每个用户上传 20 万个汉字的文件,只能说独步天下!
4、逻辑测试
老规矩,搬出之前的智力题
1、如果所有的鸟都会飞,并且企鹅是鸟,那么企鹅能飞吗?
2、四两拨千金,二两拨几斤?
3、蒸熟一个馒头要10分钟,蒸10个馒头要几分钟?
4、小明父母结婚,为什么没有通知小明参加?
5、周树人为什么殴打鲁迅?
6、树上有10只鸟,猎人开枪打死了一只,请问还剩几只鸟?
7、曹操小时候的墓穴里面有曹操的尸体吗?
8、猫之于猫科动物,就像狼之于什么?
9、所有的苹果都是水果。没有香蕉是苹果。那么,所有的香蕉都是水果吗?
10、小红每天上午7点起床,8点出门上学。如果她每天需要30分钟吃早饭,那么她每天什么时候开始吃早饭?
月之暗面回答如下图:
除了第 10 题错误,其他都对。第 10 题上次测试 GPT4 都错了。
同一份逻辑题,主流 AI 评测结果如下:
5、通识
还是之前其他 AI 评测题目
问题1:请描述量子力学的基本原理。
问题2.请为我翻译以下句子到五种不同的语言:"许多年之后,面对行刑队,奥雷良诺·布恩地亚上校将会回想起,他父亲带他去见识冰块的那个遥远的下午。"
问题3:请写一个简短的故事关于一只猫和一只狗的冒险。
问题4:解释冷战的原因和结果。
问题5:给出一个具有两个未知数的方程,然后解这个方程。
问题6:描述人类的感觉系统和它是如何工作的。
问题7:请编写一个简单的Python程序来实现冒泡排序算法。
问题8:请用简单的话解释相对论。
问题9:请给出一些建议如何改善心理健康。
问题10:模拟一段你与柏拉图的对话。
在月之暗面回答后,我把答案贴给 GPT4,让它评分
结果如下:
得到了国产 AI 的最高分 96 分!
6、综合技能测试
实时联网:支持!
读网页链接:支持!
不但可以搜索最新消息,还可以读取网页链接,进行总结!
GPT 可以做到,但是 GPT 读取国内网页有障碍
上传文件:支持!
这里有个小插曲,前几天学习群有个同学,说有个 1 页的 PDF,GPT 和 claude 死活读不出来
一读就报错,估计是文件格式有错
输入月之暗面,轻松搞定!看来它的兼容性比较强
识图:不支持!
上传图片会报错!
给出链接,它只能说明图片的大小,来源,无法读取图片上的内容,遗憾
输出内容
支持输出为 mk,表格格式
在线搜图:不支持
AI 绘图👧🏻;不支持
可视化📊:不支持
APP:暂无
总的来讲,周边功能不是很全,但是上传文档、联网确实比较强!不支持的功能相信会逐步完善和开放
7、大文件测试
(1)单个大文件读取:
如前所述,支持一次性 数量不超过 50 个,每个不超过 100M 的文件上传
12 万汉字(不含空格)的贵州茅台 PDF 半年报,轻松读取
首先让它概述
提示2:将2022年度 主要财务数据提取,汇集为表格格式
(2)多个大文件交叉比对
测了三次,试了三个方法,最后搞定
第一次:
比如,我们要分析茅台、五粮液
我们到巨潮下载两个年报,上传给月之暗面 AI
但事与愿违,月之暗面拒绝了,说对话长度超过了对话长度的 55%。
我查了下 五粮液+茅台,两份报告不计空格合计27.5 万个汉字,超过 20 万字的对话长度。
第二次
我这次分两次上传,1 次传 1 个文件,然后让 AI 一次性分析,但是还是被拒绝了
经过测试,规律如下:不管你传多少文件上去,一次性只能处理 20 万字的上下文,这里的上下文包括分多次一个一个上传的文件。
第三次
不过,机智如我,有其他办法,还记得之前我们如何利用 newbing 查询数据的么?
因为 月之暗面可以实时联网,不需要上传文件,它也可以搜索最新数据
提示:请比较贵州茅台和五粮液的2022年报中主要财务指标,并以表格形式列出
AI 自动联网,搜索第三方数据,然后对比
AI 还分析说
从上表可以看出,贵州茅台在营收、净利润、毛利率、
净资产收益率和总资产周转率等方面均优于五粮液。然而,五粮液在存货周转率、应收账款周转率、流动比率、速动比率和资产负债率等方面表现较好。这表明贵州茅台在盈利能力和资产利用效率方面具有优势,而五粮液在资产负债管理和运营效率方面表现较好。
(3)EXCEL 表信息分析
我把之前让 GPT4 分析的泰坦尼克生存 csv 文件传上去,让月之暗面分析
提示1:“这是什么文件?"
AI 答复:
是一个包含乘客信息的CSV文件。文件中包含了乘客的姓名、性别、年龄、登船港口、舱位、票价、所属船只和生存状态等信息。这些信息可能是关于某艘船上的乘客的记录。
提示2:”请分析是否越是头等舱,越年轻,存活率越高“
月之暗面答复:结论是,越是头等舱,越年轻,存活率越高。
为了分析这个问题,我们需要对数据进行统计和比较。首先,我们可以计算每个舱位等级的乘客的平均年龄,然后计算每个舱位等级的存活率。以下是对数据的分析:
计算每个舱位等级的平均年龄:
1st舱位:平均年龄 = 41.87岁
2nd舱位:平均年龄 = 32.44岁
3rd舱位:平均年龄 = 29.62岁
计算每个舱位等级的存活率:
1st舱位:存活率 = 66.67%
2nd舱位:存活率 = 48.15%
3rd舱位:存活率 = 38.89%
根据以上分析,我们可以得出以下结论:
舱位等级越低,乘客的平均年龄越低。
舱位等级越低,乘客的存活率越高。
所以,我们可以得出结论:越是头等舱,越年轻,存活率越高。
提示3:“增加年龄段分析“
AI 一番分析后的结论是:舱位等级越低,年龄越小,存活率越高。
提示4:“增加性别因素“
AI 分析后认为: 在 1st 舱位,男性的存活率相对较高。在 2nd 舱位和 3rd 舱位,女性的存活率相对较高。
提示5:综合上述分析,你有什么结论?
AI 答复:
综合上述分析,我们可以得出以下结论:
1. 舱位等级越低,乘客的平均年龄越低,存活率越高。这说明头等舱的乘客相对年轻,且存活率较高。
2. 在考虑年龄分段因素的情况下,舱位等级越低,年龄越小,存活率越高。这进一步证实了头等舱乘客的年轻和高存活率特点。
3. 在考虑性别因素的情况下,1st舱位的男性存活率相对较高,而2nd舱位和3rd舱位的女性存活率相对较高。这表明在不同舱位等级中,不同性别的乘客存活率有所差异。
综上所述,我们可以得出结论:在这次数据分析中,头等舱的乘客相对年轻,且存活率较高。同时,在不同舱位等级中,不同性别的乘客存活率也存在差异。
提示词6:请以仓位、年龄段、性别 进行组合,按存活率高低进行排序
从这个答案,你可以看出月之暗面和世界最强 AI 的 GPT4 的智力差异,
GPT4 直接给出了对比图:
还分析如下:
从这个图中,我们可以看到一些模式:
在所有的乘客类型中,二等舱的儿童("2_Child")的生存率最高,几乎接近 100%。
一等舱和二等舱的母亲("1_Mother" 和 "2_Mother")的生存率也很高,超过了 90%。
三等舱的父亲("3_Father")和二等舱的父亲("2_Father")的生存率最低,几乎接近 0%。
对于其他乘客("1_Other", "2_Other", "3_Other"),一等舱的乘客的生存率最高,其次是二等舱,三等舱的生存率最低。
关于 GPT4 的更多分析见:
《有钱 = 生存?手把手教你用 GPT4 十分钟内完成泰坦尼克号生存因素分析报告》
7、测试结论
初步测试下来,月之暗面优点如下:
支持 20 万汉字的上下文!
记忆不错。对轮对话后,还能够结合多轮前的内容进行分析。很多国产 AI 对话超过 5 轮就“健忘”了
可以实时联网,查询数据比较准确
不足:
智力水平在国产里面算一流的了,但和 GPT4 相比,还有一定差距
附加功能较弱,读图、生图、APP,数据可视化,提示助手库等,暂时没有
与其他国产 AI 总评如下:
今天只是初评,后面我们要结合多个文件,重点再次评测它的 长文阅读功能,敬请期待!
最后,打个广告 清风 AIChat
限免直联 GPT3+4+国内主流 AI
国内直联GPT!清风 AIchat 手把手保姆级使用教程,适合小白
刚升级到新版,已经支持全球主流模型,包括 GPT-3.5、GPT-4、清华 chatGLM 智谱、科大讯飞星火认知等
可保存对话记录,有一定免费额度,不定期有优惠活动,
国内直联地址:91chatgpt.com.cn (点击本文“阅读原文”可直达)
支持电脑和手机使用,微信可直接打开收藏使用。
新用户注册将获得 8000 积分!并且,每邀请一位新人注册,您和被邀请者将再各得 8000 积分!多邀多得!
双11优惠活动即将开始!你可先注册,以便第一时间收到活动通知!
另外,知识星球“清风 AI 学院”最近搞活动!新的付费会员,福利:
1、可获得“清风 AIchat”价值 30 元,100 万 token(约 80 万字)的使用券!
2、双11限时折扣价109元!
3、直接进入VIP会员群,无须另行付费!
欢迎转发、分享
如果你想学习 AI 知识,请后台发送“入群”或点击以下链接:
另,本公众号已开通 AI 学习 VIP 微信群!加入方式见这篇《普大喜奔!VIP 学习群已开通!入群方式+文章集锦》